大数据期末考试题库 您所在的位置:网站首页 数据库 考试题 大数据期末考试题库

大数据期末考试题库

2023-08-15 15:15| 来源: 网络整理| 查看: 265

文章目录 Spark选择题章鱼学院(Spark)大数据期末题目汇总选择题填空题判断题简答题

Spark选择题

Spark 的四大组件下面哪个不是 ( D ) A.Spark Streaming B Mlib C Graphx D Spark R

下面哪个端口不是 spark 自带服务的端口 ( C ) A.8080 B.4040 C.8090 D.18080

spark 1.4 版本的最大变化 ( B ) A spark sql Release 版本 B 引入 Spark R C DataFrame D 支持动态资源分配

Spark Job 默认的调度模式 ( A ) A FIFO B FAIR

C 无 D 运行时指定

哪个不是本地模式运行的个条件 ( D ) A spark.localExecution.enabled=true B 显式指定本地运行

C finalStage 无父 Stage D partition 默认值

下面哪个不是 RDD 的特点 ( C ) A. 可分区 B 可序列化 C 可修改 D 可持久化

关于广播变量,下面哪个是错误的 ( D ) A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS

关于累加器,下面哪个是错误的 ( D ) A 支持加法 B 支持数值类型 C 可并行 D 不支持自定义类型

Spark 支持的分布式部署方式中哪个是错误的 ( D ) A standalone B spark on mesos C spark on YARN D Spark on local

Stage 的 Task 的数量由什么决定 ( A ) A Partition B Job C Stage D TaskScheduler

下面哪个操作是窄依赖 ( B ) A join B filter C group D sort

下面哪个操作肯定是宽依赖 ( C ) A map B flatMap C reduceByKey D sample

spark 的 master 和 worker 通过什么方式进行通信的? ( D ) A http B nio C netty D Akka

默认的存储级别 ( A ) A MEMORY_ONLY B MEMORY_ONLY_SER C MEMORY_AND_DISK D MEMORY_AND_DISK_SER

spark.deploy.recoveryMode 不支持那种 ( D ) A.ZooKeeper B. FileSystem D NONE D Hadoop

下列哪个不是 RDD 的缓存方法 ( C ) A persist() B Cache() C Memory()

Task 运行在下来哪里个选项中 Executor 上的工作单元 ( C ) A Driver program B. spark master C.worker node D Cluster manager

hive 的元数据存储在 derby 和 MySQL 中有什么区别 ( B ) A. 没区别 B. 多会话 C. 支持网络环境 D 数据库的区别

DataFrame 和 RDD 最大的区别 ( B ) A. 科学统计支持 B. 多了 schema C. 存储方式不一样 D. 外部数据源支持

Master 的 ElectedLeader 事件后做了哪些操作 ( D ) A. 通知 driver B. 通知 worker C. 注册 application D. 直接 ALIVE

章鱼学院(Spark)

Spark 是什么 () ? 正确答案:A,C,D

A.Spark 是基于内存计算的框架B.Spark 是基于磁盘计算的框架C.Spark 是一种基于 RDD 计算框架D.Spark 是一种并行计算框架

spark 的数据,可以存储在哪些地方?正确答案:A,B,C,D

A.HDFSB.CassandraC.HbaseD.S3

大数据处理主要的三种场景为() 正确答案:A,B,C

A. 批处理B. 交互处理C. 流式计算D. 事务处理

以下对 Spark Core 描述正确的有?正确答案:A,B,C,D

A. 引入了 RDDB. 移动计算而非移动数据C. 使用线程池来减少 task 启动开销D. 使用 akka 作为通讯框架

以下对 Spark SQL 的描述正确的有?正确答案:A,B,C

A.Spark SQL 运行开发人员之间处理 RDDB.Spark SQL 可以直接查询 hive 中的数据C.Spark SQL 运行开发人员之间使用 SQL 进行复制的数据分析D.Spark SQL 的性能上,和 Hive 类似。

以下哪些是 Spark 的组件?正确答案:A,B,C

A.MLBase/MLlibB.GraphXC.Spark RD.Matlab

Spark 的运行模式有哪些?正确答案:A,B,C,D

A.localB.StandaloneC.on Yarn or on mesosD.on Cloud

spark 运行模式中,on yarn 这种模式,可以应用于生产环境中。 正确答案:A

A. 正确B. 错误

spark 运行模式中,local 这种模式,可以应用于生产环境中。 正确答案:B

A. 正确B. 错误

Spark 使用的资源管理器有哪些?正确答案:A,B,C,D

A.MesosB.standaloneC.yarnD.cloud

spark 都有哪些组件? 正确答案:A,B,C,D

A.Spark SQLB.Spark StreamingC.MLlibD.GraphX

Spark 是 2009 年诞生于伯克利大学 AMPLab 的基于内存计算框架 正确答案:A

A. 正确B. 错误

下列对 spark 描述正确的有? 正确答案:A,B,C,D

A.spark 是基于内存计算的B.spark 处理大量数据的一个快速通用的引擎C.spark 由 AMPlab 实验室开发D.spark 目前是 apache 的顶级项目

spark 是由 java 语言开发 正确答案:B

A. 正确B. 错误

Spark 的容错机制是 ()。 正确答案:A,D

A.checkpointB.persistC.cacheD.lineage

Spark 与 Hadoop 的区别 ()。 正确答案:A,C

A.Spark 是基于内存计算框架,而 Hadoop 基于硬盘计算框架B.Spark 是基于硬盘计算框架,而 Hadoop 基于内存计算框架C.Spark 是一站式计算框架,而 Hadoop 只适合离线处理计算框架D.Spark 只适合离线处理计算框架,而 Hadoop 是一站式计算框架

spark 基本特点有哪些?正确答案:A,B,C,D

A.Ease of useB.GeneralityC.Runs everywhereD.Speed

可以使用哪些语言来编写 spark 应用程序? 正确答案:A,B,C,D

A.javaB.scalaC.pythonD.R

spark 和 hadoop 对比,说法正确的是? 正确答案:A,B,C

A.Hadoop 中间结果会存储在磁盘上B.spark 中间结果会存储在内存中C.Spark 相对于 hadoop 提供了更多的操作D.Spark 已经完全取代 hadoop

Spark 常见组件描述错误的是 ()。 正确答案:B

A.Spark Core:是以内存使用 RDD 的计算实现有向无环图的分布式并行计算框架B.Spark Streaming:是一个对实时数据流进行低吞吐量、高容错性处理的流式处理框架C.Spark SQL:是一个可以直接通过 sql 语句处理 RDD,来进行查询与计算D.Spark MLBase:是专注于机器学习方面E.Spark GraphX:是专注于图计算方面F.SparkR:是一种使用 R 语言开发,且能实现并行处理的计算框架 大数据期末题目汇总 选择题 下面哪个程序负责 HDFS 数据存储。 (C )

A. NameNode B.Jobtracker

C. Datanode D. secondaryNameNode

HDFS 中的 block 默认保存几个备份。 ( A )

A. 3 份 B. 2 份

C. 1 份 D. 不确定

HDFS1.0 默认 Block Size 大小是多少。 ( B )

A. 32MB B. 64MB

C. 128MB D. 256MB

下面哪个进程负责 MapReduce 任务调度。 ( B )

A. NameNode B. Jobtracker

C. TaskTracker D. secondaryNameNode

Hadoop1.0 默认的调度器策略是哪个。 (A )

A. 先进先出调度器 B. 计算能力调度器

C. 公平调度器 D. 优先级调度器

Client 端上传文件的时候下列哪项正确? ( B )

A. 数据经过 NameNode 传递给 DataNode

B. Client 端将文件切分为 Block,依次上传

C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作

D. 以上都不正确

在实验集群的 master 节点使用 jps 命令查看进程时,终端出现以下哪项能说明 Hadoop 主节点启动成功? ( D )

A. Namenode,Datanode, TaskTracker

B. Namenode,Datanode, secondaryNameNode

C. Namenode,Datanode, HMaster

D. Namenode,JobTracker, secondaryNameNode

若不针对 MapReduce 编程模型中的 key 和 value 值进行特别设置,下列哪一项是 MapReduce 不适宜的运算。 ( D )

A. Max B. Min

C. Count D. Average

MapReduce 编程模型,键值对 的 key 必须实现哪个接口? ( A )

A.WritableComparable B. Comparable

C. Writable D. LongWritable

以下哪一项属于非结构化数据。(C)

A. 企业 ERP 数据 B. 财务系统数据

C. 视频监控数据 D. 日志数据

HBase 数据库的 BlockCache 缓存的数据块中,哪一项不一定能提高效率。 (D )

A. –ROOT - 表 B. .META. 表

C. HFile index D. 普通的数据块

HBase 是分布式列式存储系统,记录按什么集中存放。 (A )

A. 列族 B. 列

C. 行 D. 不确定

HBase 的 Region 组成中,必须要有以下哪一项。 ( B )

A. StoreFile B. MemStore

C. HFile D. MetaStore

客户端首次查询 HBase 数据库时,首先需要从哪个表开始查找。 ( B )

A. .META. B. –ROOT-

C. 用户表 D. 信息表

15、设计分布式数据仓库 hive 的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。 ( A )

A. 分桶 B. 分区

C. 索引 D. 分表

填空题

大数据的特点:Volume (数据容量)、Variety (数据类型)、Viscosity (价值密度)、Velocity (速度)、Veracity (真实性)

大数据的性质:非结构性、不完备性、时效性、安全性、可靠性

大数据处理的全过程:数据采集与记录 --> 数据抽取、清洗、标记 --> 数据集成、转换、简约 --> 数据分析与建模 --> 数据解释

大数据的关键技术:流处理、并行化、摘要索引、可视化

科学研究范式:第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算)

CAP理论:Consistency (一致性)、Availability (可用性)、Partition Tolerance (分区容错性)。一个分布式系统不可能同时满足一致性、可用性、分区容错性三个系统需求,最多只能同时满足两个。

HDFS 目标:兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性

流式数据的特征:实时性、易失性、突发性、无序性、无限性、准确性

Storm 特征:编程简单、支持多语言、作业级容错、水平扩展、底层使用 Zero 消息队列,快

搜索引擎的工作过程:爬行 -> 抓取存储 -> 预处理 -> 排名

搜索引擎的评价指标:查全率、查准率、响应时间、覆盖范围、用户方便性

数据分析的目的:对杂乱无章的数据进行集中、萃取、提炼,进而找出所研究对象的内在规律,发现其价值。

Hadoop 的三种安装模式:单机 伪分布式 完全分布式

yarn 配置后的 web 监控的默认端口是 8088

HDFS web 界面的默认端口为 50070

目前得到广泛应用的分布式文件系统主要包括 GFS 和 HDFS。

HDFS 采用 “一次写入,多次读取” 的简单文件模型。

HDFS 采用了 主从结构模型。

Hase 3 个主要功能组件:库函数,Master 主服务器,Region 服务器

MapReduce 模型的核心是 Map 函数和 Reduce 函数。

YARN 的目标就是实现 “一个集群,多个框架”。

判断题

Hadoop 支持数据的随机读写。(hbase 支持,hadoop 不支持) ( 错 )

NameNode 负责管理元数据信息 metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。(内存中读取) ( 错 )

MapReduce 的 input split 一定是一个 block。 (默认是) ( 错)

MapReduce 适于 PB 级别以上的海量数据在线处理。 (离线) ( 错 )

链式 MapReduce 计算中,对任意一个 MapReduce 作业,Map 和 Reduce 阶段可以有无限个 Mapper,但 Reducer 只能有一个。 ( 对 )

MapReduce 计算过程中,相同的 key 默认会被发送到同一个 reduce task 处理。( 对 )

HBase 对于空(NULL)的列,不需要占用存储空间。 (没有则空不存储)( 对 )

HBase 可以有列,可以没有列族(column family)。 (有列族) ( 错 )

简答题 简述大数据技术的特点。

Volume(大体量):即可从数百 TB 到数十数百 PB、甚至 EB 规模。

Variety(多样性):即大数据包括各种格式和形态的数据。

Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。

Veracity(准确性):即处理的结果要保证一定的准确性。

Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业价值。

启动 Hadoop 系统,当使用 bin/start-all.sh 命令启动时,请给出集群各进程启动顺序。

答:启动顺序:namenode –> datanode -> secondarynamenode -> resourcemanager -> nodemanager

简述 HBase 的主要技术特点。

(1)列式存储

(2)表数据是稀疏的多维映射表

(3)读写的严格一致性

(4)提供很高的数据读写速度

(5)良好的线性可扩展性

(6)提供海量数据

(7)数据会自动分片

(8)对于数据故障,hbase 是有自动的失效检测和恢复能力。

(9)提供了方便的与 HDFS 和 MAPREDUCE 集成的能力。

科学研究第一范式、第二范式、第三范式、第四范式。

第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算)

第一范式:经验范式,以观察和实验为依据的研究。

第二范式:以建模和归纳为基础的理论学科和分析范式,又称为理论范式。

第三范式:以模拟复杂现象为基础的计算科学范式,又称为模拟范式。

第四范式:以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式,数据被捕获或者由模拟器生成,利用软件处理,信息和知识存储在计算机中,科学家使用数据管理和统计学方法分析数据。

分布式系统的 CAP 理论。

CAP 一致性:所有节点在同一时间具有相同的数据。

可用性:保证每个请求的成功或失败都有相应。

分区容错性:系统中任意信息的丢失或失败不影响系统的继续运行。

CAP 定理:一个分布式系统不可能同时满足一致性、可用性、和分区容错性,最多只能同时满足两个系统需求。在考虑满足系统需求时,要根据实际需要来选择关注点,进而采用相应的策略。

CAP 选择:1. 放弃分区容错性。2. 放弃可用性。3. 放弃一致性。

函数式语言的概念及特点,Map 及 Reduce 过程的含义及功能,Hadoop 分布式平台特点。

函数式语言的概念和特点:函数式语言是一种典型的程序设计语言。特点是把问题求解过程表示成块结构,对调用块的调用者来说,每个块都有输入数据和经过加工处理后的输出数据。

Map 及 Reduce 过程的含义及功能:Map(映射)Reduce(化简)。Map 函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。Reduce 函数是从两个或更多个 Map 结果中,通过多个线程、进程或者独立系统并执行处理的结果集进行分类和归纳。一个 Map 函数用来把一组键值对映象成一组新的键值对,Reduce 函数用来对同一个键的值进行合并。

Hadoop 分布式平台特点:方便,健壮,可横向扩展,简单。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有